标签【Reinforcement learning】

1. 马尔可夫模型的几类子模型大家应该还记得马尔科夫链(Markov Chain)，了解机器学习的也都知道隐马尔可夫模型(Hidden Markov Model，HMM)。它们具有的一个共同性质就 ...

接下来我们回顾一下动态规划算法(DP)和蒙特卡罗方法(MC)的特点，对于动态规划算法有如下特性：需要环境模型，即状态转移概率\(P_{sa}\) 状态值函数的估计是自举的(bootstr ...

1. 蒙特卡罗方法的基本思想蒙特卡罗方法又叫统计模拟方法，它使用随机数（或伪随机数）来解决计算的问题，是一类重要的数值计算方法。该方法的名字来源于世界著名的赌城蒙特卡罗，而蒙特卡罗方法正是 ...

上一篇我们已经说到了，增强学习的目的就是求解马尔可夫决策过程(MDP)的最优策略，使其在任意初始状态下，都能获得最大的Vπ值。(本文不考虑非马尔可夫环境和不完全可观测马尔可夫决策过程(POMDP)中的 ...

增强学习（一） ----- 基本概念

机器学习算法大致可以分为三种： 1. 监督学习(如回归，分类) 2. 非监督学习(如聚类，降维) 3. 增强学习什么是增强学习呢？增强学习（reinforceme ...

在Matlab 上使用 Reinforcement learning

在Matlab 上使用 Reinforcement learning 环境搭建在Matlab中安装Deep Learning Toolbox后安装Reinforcement Learning T ...

强化学习方法小结

花了一天时间大致了解了强化学习一些经典算法，总结成如下笔记。笔记中出现不少流程图，不是我自己画的都标了出处。铺垫 1. Bellman方程在介绍强化学习算法之前先介绍一个比较重要的 ...

摘要神经网络在多个领域都取得了不错的成绩，但是神经网络的合理设计却是比较困难的。在本篇论文中，作者使用递归网络去省城神经网络的模型描述，并且使用增强学习训练RNN，以使得生成得到的模型在验证集 ...